Palmprint recognition has become more and more popular due to its advantages over other biometric modalities such as fingerprint, in that it is larger in area, richer in information and able to work at a distance. However, the issue of palmprint privacy and security (especially palmprint template protection) remains under-studied. Among the very few research works, most of them only use the directional and orientation features of the palmprint with transformation processing, yielding unsatisfactory protection and identification performance. Thus, this paper proposes a palmprint template protection-oriented operator that has a fixed length and is ordered in nature, by fusing point features and orientation features. Firstly, double orientations are extracted with more accuracy based on MFRAT. Then key points of SURF are extracted and converted to be fixed-length and ordered features. Finally, composite features that fuse up the double orientations and SURF points are transformed using the irreversible transformation of IOM to generate the revocable palmprint template. Experiments show that the EER after irreversible transformation on the PolyU and CASIA databases are 0.17% and 0.19% respectively, and the absolute precision loss is 0.08% and 0.07%, respectively, which proves the advantage of our method.
translated by 谷歌翻译
我们为图形结构数据(名为Kog-Transformer)和一个名为GASE-NET的3D姿势对形状估计网络提出了一个新颖的基于注意力的2到3D姿势估计网络,并提出了一个名为KOG-Transformer的数据。先前的3D姿势估计方法集中在对图卷积内核的各种修改上,例如放弃重量共享或增加接受场。其中一些方法采用基于注意力的非本地模块作为辅助模块。为了更好地模拟图形结构数据中的节点之间的关系并以差异化的方式融合不同邻居节点的信息,我们对注意模块进行了针对性的修改,并提出了设计用于图形结构数据的两个模块,图形相对位置编码多头自我注意事项(GR-MSA)和K级面向图形的多头自我注意力(KOG-MSA)。通过堆叠GR-MSA和KOG-MSA,我们提出了一个新型的网络KOG转换器,以进行2到3D姿势估计。此外,我们提出了一个在手数据上进行形状估计的网络,称为Graistention形状估计网络(GASE-NET),该网络以3D姿势为输入,并逐渐将手的形状从稀疏到密集建模。我们通过广泛的实验从经验上证明了KOG转化器的优势。实验结果表明,KOG转换器在基准数据集Human36M上的先前最新方法显着优于先前的最新方法。我们评估了GASE-NET对两个公共可用手数据集的影响Obman和Interhand 2.6M。 GASE-NET可以预测具有强泛化能力的输入姿势的相应形状。
translated by 谷歌翻译
通常,对于基于深网的良好性能文本检测器获得良好的培训和长期培训计算是必要的。在本文中,我们提出了一个新的场景文本检测网络(称为狂热者),其快速收敛速度和准确的文本本地化。所提出的粉丝是基于变压器特征学习和标准化的傅立叶描述符建模的端到端文本检测器,在该图案中,傅立叶描述符建议网络和迭代文本解码网络旨在有效,准确地识别文本建议。此外,还提出了一个密集的匹配策略和精心设计的损失函数,以优化网络性能。进行了广泛的实验,以证明所提出的粉丝可以通过更少的训练时期和没有预训练来实现SOTA性能。当我们引入其他数据进行预训练时,提出的粉丝可以在MSRATD500,CTW1500和TotalText上实现SOTA性能。消融实验还验证了我们贡献的有效性。
translated by 谷歌翻译
Recently, diffusion frameworks have achieved comparable performance with previous state-of-the-art image generation models. Researchers are curious about its variants in discriminative tasks because of its powerful noise-to-image denoising pipeline. This paper proposes DiffusionInst, a novel framework that represents instances as instance-aware filters and formulates instance segmentation as a noise-to-filter denoising process. The model is trained to reverse the noisy groundtruth without any inductive bias from RPN. During inference, it takes a randomly generated filter as input and outputs mask in one-step or multi-step denoising. Extensive experimental results on COCO and LVIS show that DiffusionInst achieves competitive performance compared to existing instance segmentation models. We hope our work could serve as a simple yet effective baseline, which could inspire designing more efficient diffusion frameworks for challenging discriminative tasks. Our code is available in https://github.com/chenhaoxing/DiffusionInst.
translated by 谷歌翻译
Privacy in AI remains a topic that draws attention from researchers and the general public in recent years. As one way to implement privacy-preserving AI, differentially private learning is a framework that enables AI models to use differential privacy (DP). To achieve DP in the learning process, existing algorithms typically limit the magnitude of gradients with a constant clipping, which requires carefully tuned due to its significant impact on model performance. As a solution to this issue, latest works NSGD and Auto-S innovatively propose to use normalization instead of clipping to avoid hyperparameter tuning. However, normalization-based approaches like NSGD and Auto-S rely on a monotonic weight function, which imposes excessive weight on small gradient samples and introduces extra deviation to the update. In this paper, we propose a Differentially Private Per-Sample Adaptive Clipping (DP-PSAC) algorithm based on a non-monotonic adaptive weight function, which guarantees privacy without the typical hyperparameter tuning process of using a constant clipping while significantly reducing the deviation between the update and true batch-averaged gradient. We provide a rigorous theoretical convergence analysis and show that with convergence rate at the same order, the proposed algorithm achieves a lower non-vanishing bound, which is maintained over training iterations, compared with NSGD/Auto-S. In addition, through extensive experimental evaluation, we show that DP-PSAC outperforms or matches the state-of-the-art methods on multiple main-stream vision and language tasks.
translated by 谷歌翻译
我们提出了一个基于神经网络的系统,用于长期,多动能人类运动合成。该系统被称为神经木偶,可以从简单的用户输入中平稳过渡,包括带有预期动作持续时间的动作标签,以及如果用户指定的话,则可以产生高质量和有意义的动作。我们系统的核心是一种基于变压器的新型运动生成模型,即Marionet,它可以在给定的动作标签给定不同的动作。与现有运动生成模型不同,Marionet利用了过去的运动剪辑和未来动作标签的上下文信息,专门用于生成可以平稳融合历史和未来动作的动作。具体而言,Marionet首先将目标动作标签和上下文信息编码为动作级潜在代码。该代码通过时间展开模块将代码展开为帧级控制信号,然后可以将其与其他帧级控制信号(如目标轨迹)结合使用。然后以自动回归方式生成运动帧。通过依次应用木偶,系统神经木偶可以借助两个简单的方案(即“影子开始”和“动作修订”)来稳健地产生长期的多动作运动。与新型系统一起,我们还提供了一个专门针对多动运动综合任务的新数据集,其中包含动作标签及其上下文信息。进行了广泛的实验,以研究我们系统产生的动作的动作准确性,自然主义和过渡平滑度。
translated by 谷歌翻译
多年来,Yolo系列一直是有效对象检测的事实上的行业级别标准。尤洛社区(Yolo Community)绝大多数繁荣,以丰富其在众多硬件平台和丰富场景中的使用。在这份技术报告中,我们努力将其限制推向新的水平,以坚定不移的行业应用心态前进。考虑到对真实环境中速度和准确性的多种要求,我们广泛研究了行业或学术界的最新对象检测进步。具体而言,我们从最近的网络设计,培训策略,测试技术,量化和优化方法中大量吸收了思想。最重要的是,我们整合了思想和实践,以在各种规模上建立一套可供部署的网络,以适应多元化的用例。在Yolo作者的慷慨许可下,我们将其命名为Yolov6。我们还向用户和贡献者表示热烈欢迎,以进一步增强。为了了解性能,我们的Yolov6-N在NVIDIA TESLA T4 GPU上以1234 fps的吞吐量在可可数据集上击中35.9%的AP。 Yolov6-S在495 fps处的43.5%AP罢工,在相同规模〜(Yolov5-S,Yolox-S和Ppyoloe-S)上超过其他主流探测器。我们的量化版本的Yolov6-S甚至在869 fps中带来了新的43.3%AP。此外,与其他推理速度相似的检测器相比,Yolov6-m/L的精度性能(即49.5%/52.3%)更好。我们仔细进行了实验以验证每个组件的有效性。我们的代码可在https://github.com/meituan/yolov6上提供。
translated by 谷歌翻译
我们研究单调夹杂物和单调变异不平等,及其对非单调环境的概括。我们首先表明,最初由Yoon和Ryu [2021]提出的额外的锚固梯度(EAG)算法用于无约束的凸孔conconcove min-max优化,可用于解决Lipschitz单调包含的更普遍的问题。更具体地说,我们证明了EAG解决了$ o(\ frac {1} {t})$的\ emph {Accelerated收敛速率}的Lipschitz单调包含问题,这是\ emph {所有一阶方法}的最佳{ [Diakonikolas,2020年,Yoon和Ryu,2021年]。我们的第二个结果是一种新算法,称为额外的锚固梯度加(EAG+),它不仅可以实现所有单调包含问题的加速$ O(\ frac {1} {t} {t} {t} {t})$收敛率,而且还表现出同样的加速度涉及负共酮操作员的一般(非单调)包容性问题的率。作为我们第二个结果的特殊情况,EAG+享受$ O(\ frac {1} {t})$收敛率,用于求解非平凡的非Conconvex-Nonconcave-Nonconcave Min-Max优化问题。我们的分析基于简单的潜在函数参数,这对于分析其他加速算法可能很有用。
translated by 谷歌翻译
图形卷积网络(GCN)已显示出容易受到小型对抗扰动的影响,这成为严重的威胁,并在很大程度上限制了其在关键安全场景中的应用。为了减轻这种威胁,大量的研究工作已致力于增加GCN对对抗攻击的鲁棒性。但是,当前的防御方法通常是为整个图表而设计的,并考虑了全球性能,在保护重要的本地节点免受更强的对抗性靶向攻击方面面临着挑战。在这项工作中,我们提出了一种简单而有效的方法,名为Graph Universal对抗防御(Guard)。与以前的作品不同,Guard可以保护每个单独的节点免受通用防御贴片的攻击,该节点是一次生成的,可以应用于图中的任何节点(节点-Agnostic)。在四个基准数据集上进行的广泛实验表明,我们的方法可显着提高几种已建立的GCN的鲁棒性,以针对多种对抗性攻击,并且胜过大幅度的最先进的防御方法。我们的代码可在https://github.com/edisonleeeeee/guard上公开获取。
translated by 谷歌翻译
近年来,提出了基于培训数据中毒的许多后门攻击。然而,在实践中,这些后门攻击容易受到图像压缩的影响。当压缩后门实例时,将销毁特定后门触发器的特征,这可能导致后门攻击性能恶化。在本文中,我们提出了一种基于特征一致性培训的压缩后门攻击。据我们所知,这是第一个对图像压缩强大的后门攻击。首先,将返回码图像及其压缩版本输入深神经网络(DNN)进行培训。然后,通过DNN的内部层提取每个图像的特征。接下来,最小化后门图像和其压缩版本之间的特征差异。结果,DNN将压缩图像的特征视为特征空间中的后门图像的特征。培训后,对抗DNN的后门攻击是对图像压缩的强大。此外,我们考虑了三种不同的图像按压(即,JPEG,JPEG2000,WEBP),使得后门攻击对多个图像压缩算法具有鲁棒性。实验结果表明了拟议的后门攻击的有效性和稳健性。当后门实例被压缩时,常见后攻击攻击的攻击成功率低于10%,而我们压缩后门的攻击成功率大于97%。即使在低压缩质量压缩后,压缩攻击也仍然是坚固的。此外,广泛的实验表明,我们的压缩后卫攻击具有抗拒未在训练过程中使用的图像压缩的泛化能力。
translated by 谷歌翻译